1 00:00:00,734 --> 00:00:02,767 [Muziki] 2 00:00:03,790 --> 00:00:04,840 [Mtangazaji] Hii ni Rasilimali za Umma 3 00:00:07,834 --> 00:00:10,599 [Carl Malamud] Halo, mimi ni Carl Malamud. 4 00:00:10,599 --> 00:00:12,960 Karibu kwenye Kielelezo cha Jumla. 5 00:00:12,960 --> 00:00:20,050 Tunawasilisha hapa kwa bure na isiyo na ukomo tumia seti ya gramu n zilizochorwa kutoka milioni 107, 6 00:00:20,050 --> 00:00:24,790 233,000, nakala za jarida 728. 7 00:00:24,790 --> 00:00:29,970 N-gramu hutoka kwa maneno moja, inayojulikana kama unigrams, kwa misemo ya maneno mawili (bigrams) 8 00:00:29,970 --> 00:00:33,840 hadi misemo ya neno 5, inayojulikana kama gramu 5. 9 00:00:33,840 --> 00:00:40,440 Kuna, yote yameambiwa, safu za bilioni 355 za n-gramu katika kutolewa hii ya faharisi ya jumla, kila moja 10 00:00:40,440 --> 00:00:43,910 inalingana na hit katika nakala ya jarida. 11 00:00:43,910 --> 00:00:50,579 Zana inayoitwa Spacy ilitumika kutoa gramu n, ambazo tumegawanyika 12 00:00:50,579 --> 00:00:51,700 kwenye faili kumi na sita. 13 00:00:51,700 --> 00:00:56,820 Kuhusishwa na kila safu ni md5 hash, ambayo inawakilisha nakala ya jarida. 14 00:00:56,820 --> 00:01:00,350 Kwa kuongezea, tunaorodhesha masafa ya n-gramu katika kifungu hicho. 15 00:01:00,350 --> 00:01:05,850 Tunatumahi baada ya muda kuorodhesha masafa katika jumla ya jumla, kipimo cha umuhimu 16 00:01:05,850 --> 00:01:08,600 inayojulikana kama TD / IDF. 17 00:01:08,600 --> 00:01:14,450 Kwa kuongeza n-gramu, Kielelezo cha Jumla ina maneno muhimu yaliyotolewa kwa kutumia Yake 18 00:01:14,450 --> 00:01:20,320 Yake "inategemea takwimu za maandishi makala yaliyotolewa kutoka hati moja hadi 19 00:01:20,320 --> 00:01:24,190 chagua maneno muhimu zaidi ya maandishi. ” 20 00:01:24,190 --> 00:01:29,890 Jedwali la neno kuu la muhtasari lina jumla ya maneno bilioni 19. 21 00:01:29,890 --> 00:01:36,530 Mwishowe, faharisi ya jumla ina metadata meza, ramani ya md5 hash kwa vitu kama hivyo 22 00:01:36,530 --> 00:01:42,130 anwani ya kipekee ya DOI ya nakala ya jarida, kichwa, mwandishi, na jarida. 23 00:01:42,130 --> 00:01:47,000 Hii ni kutolewa mapema kwa faharisi ya jumla, kazi inaendelea. 24 00:01:47,000 --> 00:01:49,900 Katika visa vingine, uchimbaji wa maandishi haukufaulu. 25 00:01:49,900 --> 00:01:54,450 Wakati mwingine, metadata haipatikani, au inapatikana labda hata sio sahihi. 26 00:01:54,450 --> 00:01:59,830 Wakati corpus ya msingi ni kubwa, ni haijakamilika, na haijasasishwa. 27 00:01:59,830 --> 00:02:04,430 Kuna njia nyingi ambazo zinaweza kuboreshwa, na tunatarajia kufanya Jenerali 28 00:02:04,430 --> 00:02:07,369 Kielelezo bora zaidi kwa wakati. 29 00:02:07,369 --> 00:02:13,260 Faharisi ya jumla inachukua takriban 38 terabytes ya data kwa njia ya Postgres 30 00:02:13,260 --> 00:02:20,010 dampo, hata hivyo kwa kubana, hii ASCII data imepunguzwa hadi terabytes 8.5. 31 00:02:20,010 --> 00:02:25,139 Unaweza kupakua data moja kwa moja kutoka hapa, au tumia zana kama bittorrent. 32 00:02:25,139 --> 00:02:31,540 Jisikie huru kuunda vioo au umma mwingine hazina za kusambaza faharisi ya jumla. 33 00:02:31,540 --> 00:02:37,689 Matumaini yetu ni kwamba inaweza kuwekwa kwa idadi ya matumizi. Tumekuwa tukitumia hifadhidata ya Postgres, 34 00:02:37,689 --> 00:02:42,919 na kutumia faharisi ya jumla kutafuta majina ya mimea kutoka orodha kuu. 35 00:02:42,919 --> 00:02:48,219 Faharisi inaweza kutumika kutafuta nyingine vitu, kama kemikali, jeni katika anuwai 36 00:02:48,219 --> 00:02:54,300 encodings, protini, vifaa, majina ya mahali, au vyombo vingine. 37 00:02:54,300 --> 00:03:00,129 Badala ya hifadhidata ya Postgres, mbinu zingine, kama vile BERT, inaweza kutumika kwa data. 38 00:03:00,129 --> 00:03:05,909 Hii ni zana ya kutafuta, kamusi ya maarifa, ramani ya maarifa, chombo ambacho tunaamini 39 00:03:05,909 --> 00:03:10,500 ni kituo muhimu kwa mazoezi ya sayansi katika zama zetu za kisasa. 40 00:03:10,500 --> 00:03:16,919 Faharisi ya jumla ya maarifa haifanyi shirika la msingi linapatikana, Badala yake, ukweli 41 00:03:16,919 --> 00:03:19,099 hutolewa kutoka kwa corpus. 42 00:03:19,099 --> 00:03:23,599 Huu ni ujinga na matumizi ya mabadiliko. 43 00:03:23,599 --> 00:03:28,569 Tunaona hii kama huduma ya umma hakuna umiliki juu ya faharisi ya jumla. 44 00:03:28,569 --> 00:03:35,599 Imejitolea kwa uwanja wa umma, safu ya ukweli ambao hauwezekani ambao unaweza 45 00:03:35,599 --> 00:03:37,019 fanya utakalo. 46 00:03:37,019 --> 00:03:40,220 Hakuna haki zimehifadhiwa. 47 00:03:40,220 --> 00:03:46,510 Wasomi kwenye barabara ya ugunduzi wanaweza kushauriana ramani hii ya barabara kupata haraka zaidi marudio 48 00:03:46,510 --> 00:03:52,540 Tunataka kutembelea barabara za ukumbi wa kumbukumbu kubwa za ulimwengu, 49 00:03:52,540 --> 00:03:58,769 jamii ya pamoja ya wasomi na wanasayansi na wahandisi na wasanii ambao wameunda 50 00:03:58,769 --> 00:04:01,370 mahekalu haya ya maarifa. 51 00:04:01,370 --> 00:04:08,219 Hekalu hizi, kutoka Maktaba ya Alexandria kwa Maktaba ya Alexandra, kutoka kwa watawa 52 00:04:08,219 --> 00:04:14,239 ya Ireland kwa maktaba kubwa za kisasa za utafiti ya leo, kutoka kwa waandishi wa Kiarabu na Wayahudi 53 00:04:14,239 --> 00:04:19,910 kufanya kazi pamoja kujenga Nyumba ya Hekima huko Baghdad kwa viwanda vya maarifa vilivyowekwa 54 00:04:19,910 --> 00:04:25,071 katika nyumba za kisasa za biashara za India Mashariki kama mashinikizo ya Oxford na Cambridge, haya 55 00:04:25,071 --> 00:04:30,400 ni mahali ambapo wasomi wanapaswa kutembelea kuendeleza ufundi wao, kujifunza kutoka 56 00:04:30,400 --> 00:04:31,950 wale waliotutangulia. 57 00:04:31,950 --> 00:04:37,190 Hekalu hizi zina jumla ya maarifa yote, lakini lazima tuweze kupata maarifa hayo. 58 00:04:37,190 --> 00:04:39,500 Faharisi ya jumla ni ramani. 59 00:04:39,500 --> 00:04:44,630 Hii sio ramani ya jumla ya maarifa yote ya kibinadamu, 60 00:04:44,630 --> 00:04:46,410 lakini hakika ni sehemu ndogo. 61 00:04:46,410 --> 00:04:51,960 Kwa kuongezeka na kuenezwa kwa maarifa kuendelea, ikiwa tunapaswa kusimama kwenye mabega 62 00:04:51,960 --> 00:04:56,520 ya makubwa, lazima tupe ramani hizi kwa hiyo ulimwengu mkubwa wa maoni. 63 00:04:56,520 --> 00:05:02,670 Faharisi ya jumla ni zana moja tu, zana kwamba tunatarajia kwa muda utapata ubora 64 00:05:02,670 --> 00:05:08,250 na kwa upeo, zana tunayotarajia ambayo itatoa mchango muhimu 65 00:05:08,250 --> 00:05:09,460 kwa mazoezi yako ya sayansi. 66 00:05:09,460 --> 00:05:14,121 Tunatumahi kuwa utaweka faharisi hii ya jumla pia matumizi ya kushangaza, ambayo tunaweza kutengeneza faharisi 67 00:05:14,121 --> 00:05:19,670 bora, kwamba unaweza kuunda zana zingine, hiyo jamii ya wasomi inaweza kufanya kazi pamoja 68 00:05:19,670 --> 00:05:24,910 katika hamu ya kawaida ya kuchimba kina kirefu ya bahari hii ya ujifunzaji. 69 00:05:24,910 --> 00:05:30,160 Ninaamini sote tunashirikiana lengo moja, matumaini ya kawaida. 70 00:05:30,160 --> 00:05:35,660 Kama wanasayansi, wasomi, wasanii, waandishi, kama raia wa ulimwengu, kama watoto wanavyotaka 71 00:05:35,660 --> 00:05:41,770 kujifunza, kama wanadamu wadadisi, naamini sote tunatumahi kuwa kuongezeka na kuenea 72 00:05:41,770 --> 00:05:47,100 ya maarifa itaifanya dunia yetu kuwa bora mahali, ambayo itatusaidia kuelewa yetu 73 00:05:47,100 --> 00:05:53,110 ulimwengu, kutibu magonjwa na umaskini, kusonga mbele maendeleo ya sayansi na biashara na 74 00:05:53,110 --> 00:05:55,000 ubinadamu na sanaa. 75 00:05:55,000 --> 00:06:01,140 Sayansi ni lugha ambayo lazima sote tuzungumze ikiwa tunapaswa kuboresha ulimwengu wetu. 76 00:06:01,140 --> 00:06:03,620 Asante kwa kusikiliza. 77 00:06:03,620 --> 00:06:11,890 [Muhuri unabweka] 78 00:06:11,890 --> 00:06:13,950 [Muziki]